*Link github: https://github.com/fongto2811/IR-project
*Giới thiệu về dữ liệu: hiện tại Amazon đang lưu trữ dữ liệu của 385 triệu sản phẩm tiêu dùng (theo thống kê từ sellerengine.com). Với lượng sản phẩm rất lớn này Amazon đã chia nhỏ thành các mặt hàng (categories) để dễ dàng phân loại và tìm kiếm, với 30 mặt hàng*, trong đó 10 mặt hàng phố biển về mặt tiêu dùng như sau:
(theo số liệu năm 2022 từ https://nuoptima.com/blog/amazon-product-categories )
Như vậy, giả sử chúng ta chỉ cần khai thác một mặt hàng “Home & Kitchen” (các sản phẩm gia dụng, bếp núc) thì cũng chiếm 40%, tức 154 triệu sản phẩm. Vì dữ liệu thu thập là các mặt hàng, sản phẩm nên đây sẽ là một số thuộc tính cơ bản mà nhóm sẽ thu thập từ Amazon:
URL tới trang chủ amazon, SESSION phục vụ ghi
logChi tiết code tại file: amazon-scrapping.ipynb
Chi tiết code tại file: create-index
Thiết kế giao diện cơ bản cho công cụ tìm kiếm bằng framework Django (phiên bản 4.2.1). Ứng dụng
được thiết kế dựa trên kiến trúc mô hình Model - View - Templates.
Từ nhu cầu thực tiễn, nhóm đã đặc tả một số giao diện, tính năng cần hiển thị trên công cụ tìm kiếm của nhóm:
Mặt làm được:
Hạn chế:
Hướng phát triển: